Skip to content

df.describe() 是 Pandas 中非常常用的统计汇总函数,用于快速查看数值列的统计摘要信息.


基本用法

python
df.describe()

返回结果类似如下:

countmeanstdmin25%50%75%max
年龄10035.410.21827344260

每一列的解释如下:

指标含义
count非空值数量(缺失值不计算)
mean平均值
std标准差(衡量数据的离散程度)
min最小值
25%25% 分位数(第一四分位数)
50%50% 分位数(中位数)
75%75% 分位数(第三四分位数)
max最大值

这些值非常适合用来观察数据的集中趋势、分布范围和是否存在异常值。


示例代码:

python
import pandas as pd

data = {
    '年龄': [25, 30, 35, 40, 45, None],
    '工资': [5000, 6000, 7000, 8000, 9000, 10000]
}
df = pd.DataFrame(data)

print(df.describe())

输出(省略格式):

              年龄          工资
count   5.000000      6.000000
mean   35.000000   7500.000000
std     7.905694   1870.828693
min    25.000000   5000.000000
25%    30.000000   6250.000000
50%    35.000000   7500.000000
75%    40.000000   8750.000000
max    45.000000  10000.000000

注意:

  • 年龄只有 5 个有效值,所以 count 是 5。
  • 工资 6 个值都不缺失,所以 count 是 6。

扩展参数

  • df.describe(include='all'):同时显示非数值列(如字符串、分类列)的统计信息。
  • df.describe(include=['object']):只统计 object 类型(通常是字符串)的列。
  • df.describe(percentiles=[.1, .9]):指定分位点,比如10%和90%。